用户生成的内容充满了拼写错误。我们假设许多拼写错误的语义不仅仅是随机噪音,而是可以利用隐藏的语义来理解语言理解任务。本文提出了泰语中拼写错误的注释语料库,以及对拼写意图及其可能的语义的分析,以更好地理解语料库中观察到的拼写模式。此外,我们介绍了两种方法,以结合拼写错误的语义:拼写的平均嵌入(MAE)和拼写的语义令牌(MST)。情感分析任务的实验证实了我们的总体假设:拼写错误的其他语义可以提高微F1得分高达0.4-2%,而盲目正常化的拼写错误是有害的和次优的。
translated by 谷歌翻译